En este documento se presentan de manera sistemática los datos socioeconómicos de la población extranjera en el País Vasco, obtenidos a partir de las Tablas estadísticas de la Estadística de la Población de Origen Extranjero de 2023 (EPOE-2023). El análisis ha sido elaborado por Twitter:@Calcetinletal, con el objetivo de ofrecer una visión clara, comparada y metodológicamente cuidada de las diferencias entre macrorregiones de origen, evitando interpretaciones simplistas y aportando contexto tanto demográfico como económico y social.
El documento analiza más de 270 variables que abarcan áreas clave del bienestar y la integración: estructura de ingresos y ayudas sociales, precariedad y estabilidad laboral, nivel educativo, uso del idioma, situación administrativa, características del hogar, salud, arraigo comunitario y diversas dimensiones de integración social y económica. Estas variables se exploran mediante gráficos descriptivos, resúmenes estadísticos y comparaciones entre grupos de origen, siempre en relación con la población de referencia del País Vasco.
Además, se realiza un análisis multivariante para estudiar similitudes globales entre regiones de origen. Mediante técnicas exploratorias (como PCA y distancias entre perfiles) se observa qué grupos presentan patrones socioeconómicos próximos y cuáles se alejan del promedio vasco. Sobre esta base se construyen también índices sintéticos o latentes —precariedad económica, estabilidad laboral, nivel educativo, integración social, arraigo y vulnerabilidad migratoria— que permiten obtener una lectura compacta del perfil de cada grupo. Estos índices están normalizados en z-scores y actúan como una especie de “nota global” que condensa múltiples indicadores en valores comparables entre regiones.
A este análisis socioeconómico se suma la integración de los datos de delitos (detenciones e investigaciones) por áreas de origen, restringidos a hombres de 15–50 años, que es la franja donde se concentra la mayor parte de la actividad delictiva registrada. Para cada delito (hurto, robo con fuerza en las cosas, agresión sexual y lesiones) se comparan tres magnitudes: - el porcentaje de detenciones, - el porcentaje de investigaciones, - y el peso demográfico real de cada grupo en la población masculina de 15–50 años del País Vasco.
Esta comparación permite identificar desviaciones relativas respecto al peso poblacional, señalando quién está sobrerrepresentado o infrarrepresentado y en qué magnitud. Junto a ello, se calculan tasas por 100.000 habitantes y ratios respecto a los hombres españoles de 15–50 años, lo que proporciona una interpretación mucho más robusta que usar únicamente porcentajes brutos de detenciones.
A lo largo del documento se subraya que una detención no equivale a una persona, sino a un acto policial: una misma persona puede aparecer varias veces a lo largo del año. Esto es especialmente relevante porque la evidencia criminológica —incluidos estudios de concentración del delito, distribuciones de cola pesada/leyes de potencia y los datos oficiales de reincidencia penitenciaria del Ministerio del Interior— muestra que una minoría pequeña de individuos genera una parte muy significativa de los delitos detectados, mientras que la mayoría de la población apenas aparece en las estadísticas. La sobrerrepresentación de ciertos grupos en algunas categorías delictivas puede, en parte, reflejar esta distribución altamente desigual de la actividad delictiva, coherente con patrones propios de sistemas complejos urbanos.
Finalmente, el documento relaciona los índices socioeconómicos latentes (precariedad, estabilidad laboral, educación, integración, arraigo y vulnerabilidad migratoria) con las tasas de detenciones por delito, para explorar si existen patrones estructurales que ayuden a interpretar las diferencias observadas entre macrorregiones. Se incluyen gráficos por delito, análisis de correlación visual, líneas de referencia para España y representaciones comparadas de índices y tasas. Aunque el objetivo no es establecer causalidad, este enfoque permite situar las cifras de delitos dentro de un marco socioeconómico más amplio y comprender mejor la magnitud de las desviaciones observadas.
Este análisis es fundamentalmente descriptivo y comparativo, no causal. Su objetivo principal es identificar desajustes entre el peso demográfico de cada grupo y su presencia en las estadísticas policiales y judiciales (detenciones e investigaciones), y poner esos desajustes en relación con distintos indicadores socioeconómicos (precariedad, empleo, educación, integración, arraigo y vulnerabilidad migratoria).
Es importante subrayar varias limitaciones clave:
Detenciones ≠ personas.
Las cifras empleadas se refieren a actos de detención o
investigación, no a individuos únicos. Una misma persona puede
aparecer varias veces a lo largo del periodo analizado, de modo que no
existe una correspondencia 1:1 entre “número de detenciones” y “número
de delincuentes”.
Análisis no causal.
Las relaciones entre índices socioeconómicos y tasas de detención se
interpretan en términos de correlaciones y patrones
estructurales, no como pruebas de causalidad. Factores como la
visibilidad policial, la concentración espacial del delito, las
dinámicas de reincidencia o la propia selección de casos pueden influir
de manera significativa en los resultados.
Desigualdad en la distribución del delito.
La literatura criminológica muestra que el delito tiende a concentrarse
en una minoría pequeña de individuos y lugares,
siguiendo patrones de cola pesada (leyes de potencia /
Pareto). Esto implica que una parte relevante de la actividad delictiva
puede estar generada por un subconjunto muy reducido de personas o
contextos, mientras que la mayoría apenas aparece en las
estadísticas.
Ahora bien, dentro de este marco de cautela, los resultados empíricos que se presentan en este informe muestran algunos patrones que son claros y difíciles de atribuir al azar:
Es decir, los factores socioeconómicos capturados por los índices latentes no bastan por sí solos para explicar la magnitud de las diferencias observadas entre Magreb y otros grupos. Esto no implica que “la causa” resida en una característica intrínseca del grupo, sino que apunta a la existencia de mecanismos adicionales (patrones específicos de asentamiento, redes delictivas organizadas, sectores económicos concretos, dinámicas policiales, estructuras familiares, historia migratoria, etc.) que no se observan directamente en esta base de datos, pero que probablemente desempeñan un papel relevante.
En resumen, los gráficos y tablas que se presentan a lo largo del informe deben entenderse como una herramienta para:
Gráfico 1: PCA (PC1 vs PC2)
En este gráfico, cada punto representa un área de
origen.
El PCA condensa toda la información de los indicadores socioeconómicos
en dos ejes principales:
Cómo leerlo:
Este gráfico sirve para ver grupos naturales de áreas que se parecen entre sí en el conjunto global de indicadores.
En este mapa se compara cada área con todas las demás a partir de su posición en el espacio PCA:
Además:
En resumen, el PCA muestra cómo se distribuyen las áreas en el espacio socioeconómico y el heatmap traduce esas distancias en una escala cualitativa de similitud/diferencia entre cada par de áreas.
En esta sección se construyen seis índices
sintéticos que resumen muchos indicadores en unos pocos ejes
interpretables.
La idea es:
Los índices son:
Estos índices no son “medidas oficiales”, sino constructos latentes diseñados para condensar mucha información en pocos ejes fáciles de comparar entre áreas.
A continuación se muestran, para cada índice resumen, las posiciones relativas de cada área de origen:
Valores más altos ⇒ región económicamente más vulnerable.
Incluye más desempleo, más hogares sin ingresos o con fuerte dependencia
de ayudas
(RGI, pensiones no contributivas, invalidez, etc.) y peor expectativa de
poder independizarse.
También recoge situaciones económicas más débiles antes de migrar y
mayor uso de deuda para financiar el viaje,
así como más presencia de mala salud y personas dependientes en el
hogar.
Valores bajos indican más peso del trabajo y de los ingresos propios,
mayor capacidad para sostener el hogar
y menor necesidad de endeudarse o depender de prestaciones.
Resultado:
Valores más altos ⇒ región con mejor enganche al mercado
laboral.
Incluye mayor tasa de actividad y ocupación, más meses trabajados y más
experiencia laboral previa,
empleos más acordes a la formación y menos inactividad o paro
prolongado.
También recoge menos personas que no quieren trabajar o solo aceptan
empleos irregulares,
y menos trayectorias laborales percibidas como fracaso o mal acompañadas
por los servicios de empleo.
Valores bajos reflejan más paro, más inactividad, más rotación y peores condiciones o expectativas en el empleo.
Resultado:
Valores más altos ⇒ región con mayor nivel educativo medio.
Combina el nivel educativo en origen y en la CAE (más secundarios/FP,
terciarios y universitarios)
y menos personas sin estudios o solo con primarios.
También recoge menos problemas escolares (retraso, absentismo,
conflictos) entre el alumnado
y una mayor proporción de personas que completan niveles medios y
superiores.
Valores bajos indican menor nivel formativo y mayor concentración de dificultades en el sistema educativo.
Resultado:
Valores más altos ⇒ región con mayor arraigo en la CAE.
Incluye más nacionalizaciones, más personas empadronadas desde hace
muchos años o nacidas en la CAE,
y mayor tiempo medio de residencia.
También refleja un mayor peso de viviendas y bienes dentro del Estado
frente a patrimonio situado fuera,
y expectativas explícitas de mantenerse en la CAE tanto a medio como a
largo plazo.
Valores bajos señalan estancias más recientes o inestables, menor
empadronamiento, más patrimonio fuera del Estado
y planes vitales más orientados a volver al país de origen o a no
permanecer en la CAE.
Resultado:
Valores más altos ⇒ trayectorias migratorias más arriesgadas y
vulnerables.
Incluye salidas y llegadas por vías más precarias (entrada ilegal,
expulsión/deportación,
huida de conflictos o guerras), viajes realizados en solitario o sin
apoyo familiar
y un uso intenso de la deuda para financiar el desplazamiento, con más
deuda aún pendiente de pago.
También recoge situaciones económicas claramente insuficientes antes
de migrar
(salarios o negocios que no daban para vivir dignamente).
Valores bajos corresponden a trayectorias más protegidas:
reagrupación familiar,
llegada como turista o por vías ocupacionales relativamente regulares y
menor dependencia
de la deuda para poder migrar.
Resultado:
IMPORTANTE, estos valores describen patrones medios de cada origen, no las historias individuales de todas las personas que pertenecen a esos grupos.
El gráfico muestra, para cada tipo de delito, la distribución porcentual de detenciones e investigaciones por área de origen, comparada con el peso de cada grupo en la población masculina de 15–50 años. Esta comparación permite observar desviaciones relativas (mayor o menor presencia policial/judicial respecto a su peso poblacional), pero no mide criminalidad individual ni una supuesta “propensión” personal al delito.
Importante: las cifras reflejan actuaciones policiales y judiciales, no condenas firmes. Un mayor porcentaje de detenciones o investigaciones puede deberse a factores estructurales (edad, situación socioeconómica, tipo de empleo, concentración urbana, intensidad del control policial, etc.), además de la propia dinámica delictiva.
En todos los gráficos, la barra morada indica el peso de cada grupo en la población masculina de 15–50 años, mientras que las barras verde y naranja muestran su porcentaje de detenciones e investigaciones. Esta comparación permite identificar desviaciones relativas respecto al peso demográfico, sin implicar causalidad individual ni equivalencia 1:1 entre detención y persona (una misma persona puede acumular múltiples hechos).
En conjunto, los gráficos muestran que las desviaciones respecto al peso poblacional no afectan por igual a todos los grupos ni a todos los delitos. Las diferencias son especialmente intensas en delitos patrimoniales, y se concentran de forma muy clara en el Magreb, mientras que otros grupos extranjeros (como Resto de África o Asia) presentan valores bajos y cercanos a lo esperable.
Los datos que utilizamos en este informe proceden de dos fuentes distintas:
Para poder relacionar los índices socioeconómicos con las tasas y ratios de detención, es necesario llevar ambos mundos al mismo nivel de agregación. Por eso, en esta sección:
Reagrupamos las áreas de origen detalladas de la encuesta en 5 macrorregiones que coinciden con las categorías usadas en las tablas de delitos:
Para cada macrorregión calculamos una media ponderada de
cada índice resumen
(precariedad económica, estabilidad laboral, nivel
educativo, integración social, arraigo,
vulnerabilidad migratoria). Es decir, el valor de cada índice
para ASIA, EUROPA, etc., es la media de las
áreas de origen detalladas que pertenecen a ese bloque,
ponderada por la población masculina de 15–50 años de
cada área (a mayor población en 15–50, mayor peso en el índice de la
macrorregión).
Añadimos una fila específica para “Españoles”
con valor 0 en todos los índices. Esto no implica que la
población española sea “neutral” en un sentido absoluto, sino que:
En los análisis donde modelizamos o correlacionamos índices y
delitos,
España se utiliza como referencia en las tasas y
ratios,
pero los índices socioeconómicos se calculan y analizan solo para las
macrorregiones de origen inmigrante.
Esta elección tiene ventajas y limitaciones:
En la figura “Desventaja socioeconómica y tasas de detención” se representan, para cada tipo de delito analizado, las tasas de detención por macrorregión de origen de los hombres de 15–50 años.
La figura no pretende ajustar un modelo formal, sino visualizar el alineamiento general entre “desventaja socioeconómica media” y “nivel de detención” por tipo de delito.
En estos gráficos, cada punto representa una macrorregión de origen (ASIA, EUROPA, LATINOAMÉRICA, MAGREB, RESTO AFRICA):
0 = media de las macrorregiones.1 = mismo nivel que los españoles.y = 1 marca el
nivel de los españoles.x = 0 marca el
valor medio de las macrorregiones en cada índice.En conjunto, estos gráficos permiten ver si las macrorregiones con perfiles socioeconómicos más desfavorables (aparecen a la derecha en algunos índices, por ejemplo más precariedad) tienden también a tener ratios de detención más altos (en la parte superior del gráfico) para cada tipo de delito.
Por tanto, estos gráficos ayudan a visualizar la coherencia
(o desajuste) entre el nivel de desventaja socioeconómica y los
niveles relativos de detenciones por tipo de delito, pero deben leerse
siempre como un análisis descriptivo, no como una
estimación del “riesgo intrínseco” de delinquir de cada población.
La evidencia criminológica muestra de forma bastante consistente que el delito no se reparte de manera homogénea entre personas ni lugares, sino que presenta una concentración muy acusada: la mayoría de las personas no comete delitos o comete muy pocos, mientras que una minoría relativamente pequeña acumula un número muy elevado de hechos. En términos estadísticos, este patrón se describe a menudo como una distribución con cola pesada (fat-tail), próxima a una ley de potencia o a una distribución de tipo Pareto.
En el plano individual, los estudios clásicos sobre carreras delictivas (por ejemplo, el célebre estudio de cohortes de Filadelfia de Wolfgang, Figlio y Sellin) ya mostraban que un pequeño porcentaje de infractores era responsable de una proporción muy elevada de los delitos registrados en la cohorte (Wolfgang, Figlio & Sellin, 1972). Evidencia más reciente confirma este tipo de patrón en distintos contextos: por ejemplo, Morgan et al. (2025) analizan la conducta infractora dentro de prisión y muestran que aproximadamente el 20 % de los internos genera en torno al 90 % de las infracciones disciplinarias, aplicando explícitamente el principio de Pareto a la dinámica delictiva intramuros (Morgan, Long, Logan & Benton, 2025). De forma similar, Ceccato (2024) revisa estudios en sistemas de transporte donde alrededor de un 20–25 % de los infractores concentra entre el 70–80 % de los incidentes, y un porcentaje aún menor es responsable de la mitad del daño registrado (Ceccato, 2024).
En el plano espacial, la llamada “ley de la concentración del delito en el lugar” formulada por Weisburd (2015) establece que, para una medida de delito y una unidad microgeográfica concretas (por ejemplo, segmentos de calle), alrededor del 50 % de los hechos tiende a concentrarse de forma sistemática en un 2–6 % de los segmentos de calle, y que este patrón es notablemente estable en el tiempo (Weisburd, 2015). Trabajos posteriores han replicado y matizado este resultado en distintas ciudades y países, confirmando que el delito se concentra de forma muy intensa en un número muy reducido de micro‐lugares.
Desde la perspectiva de los sistemas complejos urbanos, Oliveira, Bastos-Filho y Menezes (2017) muestran que la distribución del número de delitos entre regiones de una ciudad (definidas de manera que tengan igual población) se puede aproximar por una distribución tipo ley de potencia \(p(x) \propto x^{-\alpha}\), donde el exponente \(\alpha\) depende del tipo de delito. Analizando datos desagregados de 25 áreas urbanas de EE. UU. y Reino Unido, los autores encuentran que la concentración del delito es un rasgo robusto que no desaparece al cambiar de ciudad ni de contexto, y que los distintos tipos de delito presentan niveles de concentración distintos pero siempre muy alejados de una distribución uniforme (Oliveira, Bastos-Filho & Menezes, 2017).
En conjunto, esta literatura apunta a que tanto a nivel de personas (ofensores “crónicos” o “prolíficos”) como de lugares (puntos calientes o hot spots), el delito sigue una estructura fuertemente asimétrica, compatible con distribuciones de cola pesada o leyes de potencia. Para el caso que nos ocupa, esto implica que los datos de detenciones no deben interpretarse como si cada detención correspondiera a una persona distinta, sino como la superposición de muchos individuos que aparecen una sola vez en las estadísticas y un subconjunto mucho más pequeño de infractores que acumulan un número desproporcionado de detenciones. Esta lógica es coherente con la idea de que “unas pocas personas generan muchos delitos” y “unos pocos lugares concentran muchos hechos”, y refuerza la necesidad de ser prudentes al equiparar el número de detenciones con el número de “delincuentes” en un sentido 1:1.
En el contexto español, los datos oficiales de reincidencia penitenciaria van en la misma dirección, aunque se centran únicamente en quienes llegan a cumplir pena de prisión. El Estudio de reincidencia penitenciaria 2009–2019 del Ministerio del Interior analiza una cohorte de 19.909 personas excarceladas en 2009 tras cumplir una condena privativa de libertad (excepto Cataluña) y realiza un seguimiento de diez años: el 19,98 % vuelve a ingresar en prisión por nuevos delitos cometidos después de la excarcelación, y algo más de la mitad de estos reingresos se concentra en los tres primeros años (Secretaría General de Instituciones Penitenciarias, 2022). El estudio muestra además diferencias muy marcadas por sexo, nacionalidad y modalidad de excarcelación (por ejemplo, tasas más altas entre hombres, personas españolas y quienes salieron en libertad definitiva frente a quienes pasaron por libertad condicional). Aunque se trata de reincidencia penitenciaria y no de reincidencia penal en sentido amplio, los resultados refuerzan la idea de que una parte de las personas que han pasado por el sistema penal concentra un volumen elevado de contactos posteriores con el sistema, mientras que otra parte no vuelve a aparecer en los registros.
Para el caso que nos ocupa, esto implica que los datos de detenciones no deben interpretarse como si cada detención correspondiera a una persona distinta, sino como la superposición de muchos individuos que aparecen una sola vez en las estadísticas y un subconjunto mucho más pequeño de infractores que acumulan un número desproporcionado de detenciones. Esta lógica es coherente con la idea de que “unas pocas personas generan muchos delitos” y “unos pocos lugares concentran muchos hechos”, y refuerza la necesidad de ser prudentes al equiparar el número de detenciones con el número de “delincuentes” en un sentido 1:1.
El análisis conjunto de los datos socioeconómicos y de las estadísticas de detenciones e investigaciones permite extraer varias conclusiones claras:
La población extranjera no es un bloque
homogéneo.
Las macrorregiones de origen presentan perfiles socioeconómicos muy
distintos entre sí en términos de ingresos, estabilidad laboral, nivel
educativo, integración social, arraigo y vulnerabilidad migratoria. En
este sentido, hablar de “inmigrantes” en general oculta una
heterogeneidad muy relevante.
Los índices socioeconómicos captan diferencias
estructurales, pero no lo explican todo.
Aunque los índices latentes (precariedad, empleo, educación,
integración, arraigo y vulnerabilidad migratoria) permiten identificar
desigualdades claras entre grupos, estas diferencias por sí solas
no bastan para explicar la magnitud de las brechas
observadas en las tasas de detención en varios delitos. La correlación
existe, pero no es suficiente para dar cuenta de los patrones más
extremos.
Los hombres españoles siguen siendo mayoría social, pero
minoría en muchos delitos patrimoniales.
Aunque representan alrededor del 78 % de los hombres de 15–50 años en
Euskadi, su peso en detenciones por hurto y
robo con fuerza es muy inferior a su peso demográfico,
lo que señala una infrarepresentación relativa en estos
delitos.
La sobrerrepresentación de los hombres de origen magrebí
es muy intensa y consistente.
Para los delitos analizados (hurto, robo con fuerza en las cosas,
agresión sexual y lesiones), los hombres de origen magrebí concentran
una proporción muy elevada de detenciones e
investigaciones, con tasas por 100.000 habitantes muy
superiores a las de los hombres españoles de 15–50 años.
Este patrón no se explica únicamente por factores socioeconómicos. Es
cierto que la precariedad laboral es mayor en los magrebíes pero grupos
con perfiles de precariedad similares, como Resto de
África, presentan tasas muy inferiores. Esto sugiere la
presencia de mecanismos adicionales no capturados por
los índices disponibles.
El delito está fuertemente concentrado en pocos
individuos y contextos.
La literatura criminológica muestra que la distribución del delito sigue
una estructura de cola pesada: una minoría pequeña
genera una proporción muy elevada de los hechos. En este contexto, las
estadísticas de detenciones reflejan eventos, no
“número de delincuentes” únicos. Es razonable pensar que parte de la
sobrerrepresentación observada responde a la actividad de un subconjunto
reducido de personas muy activas en determinados delitos y
entornos.
No podemos saber exactamente qué porcentaje de cada
población es “problemática”, pero sí podemos acotarlo.
Debido a que las detenciones no distinguen individuos únicos y pueden
incluir múltiples eventos por persona, no es posible estimar con
precisión cuántos individuos generan los valores
observados.
Sin embargo, considerando alguno de los factores soecioeconómicos en
concreto se podría acotar. Este informe no cuantifica ese porcentaje —ni
lo pretende—, pero sí acota el problema: los valores observados
solo pueden surgir de un subconjunto reducido con actividad muy
intensa, coherente con lo descrito en la criminología
comparada.
Interpretación abierta.
Este documento es deliberadamente descriptivo: ofrece
datos, patrones y comparaciones, pero no impone explicaciones cerradas.
La interpretación fina —causas, mecanismos, hipótesis
alternativas— queda abierta para quien desee profundizar en este extenso
análisis descriptivo y contrastarlo con evidencia adicional
(territorial, longitudinal, cualitativa o policial).
Implicaciones generales.
En resumen, este informe muestra que: - no todos los grupos
presentan el mismo grado de sobrerrepresentación,
- las diferencias no pueden explicarse solo por precariedad
socioeconómica,
- las tasas extremas implican actividad muy
concentrada,
y que interpretar dichos patrones requiere un análisis más profundo que
el que permiten los datos agregados aquí presentados.